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HE: [目的 /意义 ] 针对 用 户 在 图 书馆 海量 数字 资源 中 常常 面临 获取 信息 困难 的 问题 ， 构 建 一 套 个 性 
化 知识 服务 系统 ， 认 为 该 系统 是 图 书馆 帮助 用 户 摆脱 信息 超载 困境 和 提升 知识 服务 质量 的 必然 选择 . [A 
法 /过 程 ] 通过 建立 中 图 法 和 学 科 分 类 法 两 大 知识 组 织 体系 的 映射 模型 ， 基 于 Hadoop 分 布 式 处 理 平 台 ， 
提出 一 种 改进 TF-IDF+ 贝 叶 斯 算法 构建 图 书馆 海量 学 术 资源 自动 分 类 模型 ， 辅 助 完善 图 书馆 个 性 化 知识 服 
务 系统 的 构建 [结果 /结论 ] 以 自 中 国 知 网 抓 取 的 600 万 余 篇 文献 作为 原始 训练 语 料 ( 语 料 涵盖 75 个 学 科 ) 
测试 该 分 类 模型 的 有 效 性 ， 实 验 结果 证 明 该 模型 的 分 类 效率 和 效果 都 达到 了 预期 。 
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随 着 网 络 数据 库 资源 和 图 书馆 馆藏 数字 资 
源 种 类 和 内 容 的 日 益 丰 富 ， 用 户 经 常会 在 浩 如 
烟 海 的 数字 资源 中 面临 获取 信息 困难 的 问题 。 
图 书馆 作为 数字 资源 的 再 加 工 者 和 再 组 织 者 ， 
如 何 有 效 地 组 织 和 管理 这 些 资源 , 并 快速 、 准 确 、 
全 面 地 从 中 定位 到 用 户 所 需要 的 信息 是 当前 图 
书馆 人 和 信息 技术 领域 面临 的 一 大 挑战 。 自 动 
文本 分 类 是 一 种 处 理 和 组 织 海量 文本 资源 的 有 
效 手段 ， 可 在 较 大 程度 上 解决 图 书馆 文本 资源 
杂乱 问题 ， 对 于 文本 资源 的 高 效 管理 和 有 效 利 
用 都 具有 极其 重要 的 意义 "1。 


基于 机 器 学 习 的 文本 自动 分 类 技术 ， 在 分 
类 效果 和 灵活 性 上 都 比 传统 的 文本 分 类 模式 有 
所 突破 ， 常见 的 有 贝 叶 斯 算法 CNB) . k- 邻 
近 算 法 (k-NN ) 、 决 策 树 DT, F m EHL 
(SVM) 以 及 递 推 神经 网 络 (RNN) 等 外。 其 中 贝 
叶 斯 分 类 算法 是 最 常见 也 是 最 具 代 表 性 的 ， 它 
是 一 个 基于 有 监督 的 机 器 学 习 模 型 ， 由 于 其 高 
准确 率 和 高 效率 一 直 得 到 学 者 们 的 青睐 后]。 早 
在 1998 年 D. Lewis 就 阐述 了 如 何 将 贝 叶 斯 应 
用 在 信息 检索 和 文本 分 类 领域 。 后 来 Y. LI 等 
提出 一 种 基于 词 - 类 别 依赖 值 的 加 权 NB 算法 。 
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GMS |" HEL Th SH” (抑制 先 验 
概率 的 作用 ， 扩 大 后 验 概率 的 影响 ) 的 改进 贝 
叶 斯 文本 分 类 算法 。 杜 选号 利用 类 别 补 集 特征 
消除 样本 数据 分 布 不 均匀 ， 提 出 一 种 加 权 补 集 
的 贝 叶 斯 算法 。 张 杰 等 基于 分 布 式 计算 框架 
MapReduce 平台 ， 提 出 一 种 归 一 化 词 频 的 贝 叶 
斯 分 类 模型 。 上 述 学 者 们 在 分 类 算法 上 做 了 大 
量 的 研究 工作 ， 在 原始 训练 语 料 和 实际 应 用 方 
面相 对 薄弱 ， 而 这 正 是 本 文 的 研究 重点 。 本 文 
基于 Hadoop 分 布 式 处 理 平台 ,通过 构建 中 图 法 
与 学 科 分 类 法 两 大 知识 组 织 体系 的 映射 模型 ， 
采用 改进 的 TF-IDF 算法 提取 文本 特征 词 集 ， 以 
海量 的 文本 特征 词 集 作为 学 习 语 料 加 入 贝 叶 斯 
多 项 式 模型 进行 概率 参数 训练 ， 完 成 海量 文本 
数据 的 并 行 处 理 及 自动 分 类 模型 的 构建 。 


@O 图 书馆 知识 组 织 体 系 分 析 


面 对 海 量 的 学 术 资 源 ， 如 何 进 行 有 序 的 组 
织 给 我 们 提出 了 挑战 。 本 文 对 原始 训练 语 料 的 
组 织 策略 进行 了 重点 研究 ， 分 析 整 理 收集 和 建 
立 相 关 知识 组 织 工 具 ， 包 括 主题 词 表 、 中 图 法 
分 类 表 、 学 科 分 类 表 等 ， 人 研究 学 科 分 类 法 与 中 
图 法 两 种 知识 组 织 体系 的 内 容 及 关联 关系 。 

学 科 分 类 法 与 中 图 法 是 目前 对 图 书馆 学 术 
资源 进行 标 引 的 两 大 知识 组 织 体系 ， 它 们 分 别 
从 不 同 内 容 角 度 对 同一 主体 进行 组 织 和 揭示 。 
中 图 法 是 我 国 图 书馆 和 情报 单位 普遍 使 用 的 一 
部 综合 性 分 类 法 ， 主 要 是 供 图 书馆 对 图 书 进行 
分 类 管理 。 中 图 法 包括 “马列 主义 、 毛 泽 东 思想 ， 
哲学 ， 社 会 科学 ， 自 然 科学 ,综合 性 图 书 ”5 大 
部 类 ， 下 一 级 细 分 为 22 个 基本 大 类 ， 每 个 基本 
大 类 又 细 分 为 若干 门类 ""。 教 育 部 颁布 的 学 科 
分 类 法 一 共 分 为 12 大 学 科 门 类 ， 下 一 级 细 分 为 
89 个 一 级 学 科 。 中 图 法 的 分 类 太 过 精细 专业 化 ， 
而 学 科 分 类 法 比较 符合 用 户 通常 查找 资源 的 习 
惯 。 因 此 ， 本 文选 择 采 用 学 科 分 类 法 对 海量 的 
学 术 资 源 进 行 再 组 织 ， 为 更 加 精准 的 个 性 化 知 
识 服务 提供 可 靠 的 保障 。 

然而 ， 大 部 分 的 学 术 资 源 没 有 明确 的 学 科 
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标签 ,但 都 带 有 准确 的 中 图 号 ， 因 此 本 文通 过 
手工 标 引 将 89 个 一 级 学 科 整 理 为 75 个 ( 例如 
将 “理论 经 济 学 ”与 “应 用 经 济 学 ”合并 称 为 “经 
济 学 ”, “地 理学 ”与 “大 气 科 学 ”合并 称 为 “地 
球 科学 ”) ， 然 后 建立 75 个 一 级 学 科 与 中 图 法 
的 22 个 基本 大 类 的 一 一 映射 表 ( 见 表 1 ) ， 构 
建 两 大 知识 组 织 体 系 的 关联 模型 ， 为 后 期 训练 
分 类 模型 做 好 基础 准备 。 


表 1 中 图 法 与 学 科 分 类 法 部 分 映射 表 


中 图 号 学 科 名 称 PRS 学 科 名 称 
Tt FL as 
Al~A8 BEX C94 ”系统 科学 
理论 

B0~B83,B9 哲学 C95 民族 学 
B84 心理 学 D0-D8 ”政治 学 
C0-C7,C91-C92 社会 学 D9-DF ”法 学 
C8 经 济 学 E0-E9 ”军事 学 

人 J E 

C93,C96-C97 a 


O 图 书馆 海量 学 术 资 源 自动 分 类 模型 
构建 


图 书馆 学 术 资 源 自动 分 类 模型 的 分 类 效果 
很 大 程度 上 依赖 于 原始 训练 语 料 的 质量 和 总 量 。 
本 文 的 原始 训练 语 料 主要 是 抓 取 自 中 国 知 网 的 
600 万 篇 以 上 的 高 质量 语 料 ， 语 料 涵 盖 75 个 学 
科 。 利 用 学 科 分 类 法 与 中 图 法 关联 模型 ， 基 于 
Hadoop 分 布 式 处 理 平台 ， 对 图 书馆 海量 学 术 资 
源 进行 批量 的 训练 与 分 类 。 包括 三 步 ( 见 图 1 ): 

第 一 步 : 数据 的 预 处 理 。 提 取 分 类 所 需 的 
关键 字段 , 包括 题目 、 摘 要 、 关 键 词 、 中 图 号 等 。 
然后 对 语料库 进行 分 词 、 去 停留 词 、 保 留 专 有 
名 词 。 

第 二 步 : 提取 文本 关键 词 集 。 引 入 TF-IDF 
算法 对 原始 词 集 进行 关键 词 提 取 ， 并 作为 学 习 
语 料 放 入 分 类 模型 进行 训练 。 

第 三 步 : 贝 叶 斯 多 项 式 分 类 模型 训练 。 将 
文本 关键 词 集 作为 输入 特征 分 别 计算 该 篇 文本 
可 能 归属 学 科 类 别 的 概率 值 ， 选 取 概 率 值 最 大 
的 类 别 作为 该 篇 文本 的 类 别 。 
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预 处 理 提取 关键 词 集 贝 叶 斯 模型 训练 
[x] | 分 _ 
成 词 —— 一 一 一 wl — 
中 | | : 给 | | & 叶 
提 Is FA x | = 斯 奸 
= la| | 号 | la Wt | IDF M g 
| 关 | | 与 ‘al w |g 率 型 
原始 语 料 a em = ten ee 分 类 结果 
| N ` A 
字 | | 门 | | 名 叭 | | 3 A ja 
“yer e a ela 
的 | | 2g ID 集 fii 
一 一 | we L] 计 
射 | | 名 L 
wW 
图 1 海量 学 术 文 献 自 动 分 类 流程 


2.1 数据 预 处 理 

在 数据 预 处 理 阶段 主要 是 完成 对 原始 语 料 
关键 字段 的 提取 及 分 词 操 作 。 题 目 、 摘 要 、 关 
键 词 和 中 图 号 是 一 篇 学 术 文献 最 能 体现 其 主题 
与 所 属 学 科 的 关键 要 素 ， 因 此 ， 本 文 提取 这 几 
个 关键 字段 构建 原始 语料库 。 其 中 ， 提 取 中 图 
号 是 与 第 1 小 节 的 关联 模型 进行 学 科 类 别 匹配 。 

接 下 来 是 对 原始 语料库 进行 分 词 过 滤 操 作 。 
目前 开源 的 分 词 器 很 多 ,， 正 分 词句 是 一 个 基 
于 Java 语言 设计 开发 的 中 文 分 词 工具 ， 它 自身 
带 有 停 用 词 表 ， 可 在 其 中 添加 自 定义 的 停 用 词 
中 。 由 于 本 文 处 理 的 数据 都 是 学 科 类 数据 ， 数 
据 中 包含 比较 多 的 专 有 名 词 ，IK 分 词 器 正好 满 
足 这 样 的 需求 ， 可 以 自行 添加 专 有 名 词 表 ， 避 
免 专 有 名 词 被 切 分 。 本 实验 添加 了 20 万 条 学 术 
专 有 名 词 词 库 ， 基 于 MapReduce 框架 实现 并 行 
化 分 词 的 步骤 如 下 : 

第 一 步 : 自 定 义 输入 类 SubjectInputFormat 
和 一 个 paths 数 组 ，SubjectInputFormat 继 承 
FileInputFormat 类 并 重 载 getSpilts 方法 实现 多 个 
文件 分 片 , paths 数组 用 于 记录 每 个 文件 的 路 径 ; 

第 二 步 ， 定义 一 个 构造 函数 
SubjectRecordReader 来 处 理 分 片 内 容 ， 通 过 
SubjectInputFormat 调 用 CreateRecordReader 方 
法 并 返回 CombineRecordReader 对 象 ， 将 结 


<Key,Value> 对 传递 到 Mapper 中 。 其 中 Key ft 
表 文 件 所 属 的 类 别名 ，Value 代表 文件 内 容 ， 类 
型 均 为 Text.。 

第 三 步 : Mapper 端 接收 到 Value 中 的 文件 
内 容 后 调用 下 分词 器 提供 的 接口 进行 分 词 处 理 。 
2.2 提取 文本 关键 词 集 

为 了 提高 文本 分 类 的 效率 和 准确 度 ， 本 文 
引入 经 典 的 TF-IDF 算法 对 原始 词 集 进 行 关 键 词 
的 提取 O, TF 表示 某 一 词汇 在 文本 中 出 现 的 
DR, IDF 表示 逆 文 本 频率 (能够 反映 该 词 在 
整个 语料库 中 的 大 众 化 程度 ) ， 文 本 中 每 个 词 
都 可 以 通过 这 两 个 指标 的 乘积 得 到 一 个 权重 即 
tidf 值 ， 按 一 定 的 比例 筛选 出 权重 较 大 的 词 作 
为 该 篇 文本 的 关键 词 集 。 如 下 列 公式 所 示 : 


Fez 

fy =e 
Di 公式 (1) 

idf, = log P| 
Mined] ARO) 


公式 (1) 中 , nj 表示 某 一 词汇 ti 在 该 
篇 文本 中 出 现 的 次 数 ， 分 母 为 该 篇 文本 中 所 
有 词汇 出 现 次 数 的 总 和 。 公 式 (2) 中 |D| 表 
示 语 料 库 的 文本 总 数 ， 上 :4 ed,}] 表示 包含 
词汇 4 的 文本 数目 ， 如 果 该 词汇 不 在 语料库 
中 ， 就 会 导致 被 分 母 为 零 ， 所 以 一 般 情况 使 用 
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根据 算法 中 IDF 的 定义 ， 当 词汇 六 在 某 个 
学 科 b, 频 繁 出 现 ， 而 在 其 他 学 科 极 少 出 现时 ， 
通常 会 被 赋予 较 低 的 权重 ,说 明 该 词汇 类 别 区 
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步骤 一 : 给 语料库 中 每 篇 文献 赋予 一 个 唯 
一 的 标识 id。 
步 又 = 定 义 mapper<key,value> PKI 数 ， 


key 为 分 区 字 节 偏 移 量 ，value 为 < 文本 id>|< 分 


分 能 力 不 强 。 但 是 实际 上 ， 当 学 科 乌 中 包含 词 
汇 i 的 文本 数量 大 ， 而 其 他 学 科 中 包含 词汇 的 
文本 数量 小 ， 则 说 明 词汇 4 能 很 好 地 代表 学 科 b 
的 文本 特征 ， 具 有 很 好 的 类 别 区 分 能 力 。 因 此 ， 
针对 这 个 缺陷 ， 张 玉 芳 O 等 将 公式 (2 ) 变形 
为 
; {l:t, Eb} 
ee st, e AG |{m :¢, - Cy} +1 

公式 (3) 

Wit eb 为 修正 系数 ， 表 示 某 个 学 科 bh 
包含 词汇 #6 的 文本 数目 ,|tm:t ec 表示 除 学 科 
b, 外 包含 词汇 i 的 文本 数目 。 可 以 看 出 idf, 随 着 
l:t eb 的 增 大 而 增 大 ， 随 着 |tm:t ec 的 增 大 
而 减 小 ， 这 刚好 能 弥补 IDF 定义 的 缺陷 。 

张 玉 芳 等 提出 的 方法 对 权重 修正 有 一 定 的 
作用 ， 在 此 基础 上 ， 本 文 还 考虑 特征 词 在 文本 
中 不 同位 置 的 类 别 区 分 能 力 不 同 ， 引 入 一 个 位 
置 因 子 5， 特 征 词 出 现在 关键 词 位 置 应 具备 更 好 
的 类 别 区 分 能 力 ， 大 量 实验 显示 o=2 时 效果 比 
较 好 ， 则 公式 (3 ) 变形 为 


l {2 :t, € byl 
, = o(t,)x log 一 一 一 一 一 一 一 
idf, = o(t,)* iar, €b J+ ci” 


x|D) 


pp 
AK (4) 

此 外 ， 在 一 篇 文献 中 ,每 个 词 的 TF ( 频 度 ) 
的 计算 量 与 文本 长 度 成 正比 ， 而 IDF ( 逆 文 本 频 
K) 的 计算 量 则 与 语料库 的 大 小 成 正比 。 本 文 
初始 语料库 中 包含 语 料 600 万 篇 以 上 ， 而 且 会 
语料库 会 不 断 地 更 新 ， 如 果 每 次 计算 idf 值 时 都 
去 基于 语料库 统计 ， 响 应 时 间 较 长 且 浪 费 计算 
资源 。 因 此 ， 本 文 基于 MapReduce 事先 对 整个 
语料库 中 的 每 个 词 计 算出 好 值 ， 并 将 结果 存放 
在 Mysql 数据 库 中 ， 当 计算 某 个 词汇 的 yr*idf 值 
时 ， 直 接 去 Mysql 数据 库 中 取 即 可 。 实 现 过 程 
如 下 : 


词 后 的 词 集 >|< 学 科 类 别 >。 对 词 集 进行 近代 输 
出 ， 输 出 key 为 < 特征 词 >|< A BEE Hl] > TB Kh 
的 字符 串 ，value 为 文本 id. 

Ab RR =: Ze X reducer<key,value> 函数 ， 
key 为 某 一 词汇 < 特征 词 >|< 位 置 因子 >|< 学 科 
类 别 > 形 式 的 字符 串 ，value 为 该 词汇 对 应 的 
所 有 文本 id。 首 先 对 同一 词汇 下 的 文本 id 进行 
去 重 并 计算 出 包含 该 词汇 的 文本 数量 n， 然 后 
统计 出 所 有 类 别 中 含 该 词汇 的 文本 数目 ， 文 本 
数目 最 大 的 记 作 mm， 最 后 计算 该 词 的 idf 值 即 
if =o ou”), i key IAEN, 
value 为 该 词汇 对 应 的 idf 值 。 将 结果 放 和 人 Mysql 
数据 库 中 ， 并 建 好 索引 。 

步骤 四 : 提取 特征 词 集 ， 首 先 计 算 某 个 词 
汇 在 文本 中 出 现 的 频率 tf, YR BCE PSEA 
对 应 词汇 的 idf 值 ， 即 可 得 到 该 词 的 Wr*idf， 按 
照 一 定 比例 选取 该 文本 的 特征 词 集 。 
2.3 贝 叶 斯 多 项 式 分 类 模型 训练 

贝 叶 斯 文本 分 类 算法 的 理论 基础 是 假设 组 
成 文本 的 词汇 之 间 是 相互 独立 的 ， 在 先 验 概率 
和 条 件 概 率 的 基础 上 计算 最 终 的 后 验 概率 ， 选 
取 概 率 最 大 作为 分 类 的 结果 。 

给 定 文本 训练 集 (xy) ， 某 个 文本 有 mn 
个 特征 词 ， 即 xz=Cc .0)， 每 个 特征 词 有 
k 种 类 别 ， 即 022， 则 分 类 函数 记 作 
f(x) =argmax, PCy, |x)， 即 转化 为 求解 概率 函 
数 Pox), Bll 

_ Ply PO) __ Ply pO) 
PN aye Ee 
AK (5) 

在 公式 (5) 中 ， 对 于 所 有 的 ,分 母 的 值 
都 一 样 ， 所 以 可 以 忽略 分 母 部 分 ; PG) 是 先 验 
概率 ,根据 训练 集 就 可 以 简单 地 计算 出 来 ; 然 
后 根据 贝 叶 斯 理论 假设 特征 词 属性 zi，xw 互 
相 独 立 ， 则 


202310.00403v1 


chinaXiv 


知识 管理 论坛 


2018 年 第 3 期 (总 第 15 期 ) 


KS = 


www.kmf.ac.cn 


P(X | yi) = PO x2 x, | Ye) = Mia POG |) 
AX (6) 
那么 最 终 贝 叶 斯 分 类 函数 表示 为 : 
f(x)=argmax, POVI PŒ ly) 公式 (7) 
由 于 待 分 类 文本 的 特征 是 离散 的 ， 使 用 多 
项 式 模 型 来 计算 先 验 概率 和 条 件 概率 ， 公 式 如 
下 : 


N, +a 公式 (8) 
P(y,)=—*—_ 
O) N+ka 
N, +a 公式 (9) 
Pa, y) = 
N, +Ma 


N ÆN y 的 文本 数量 ,，N 是 总 的 样本 
数量 ，N, ERIN y, XEF, BERE 
x 的 文本 数量 ，M 表示 训练 集中 所 有 关键 词 的 
Bot, oa 是 平滑 值 ， 在 实际 应 用 中 一 般 取 值 1。 

在 贝 叶 斯 分 类 模型 训练 阶段 ， 主 要 任务 就 
是 对 参数 P04) 和 P(xiy 进行 估计 ， 前 者 是 对 
训练 集 的 类 别 统计 ， 后 者 则 需要 基于 语料库 统 
计 每 个 词 与 75 个 学 科 类 别 的 关系 。 因 此 ， 使 用 
MapReduce 编程 框架 实现 基于 海量 语料库 的 贝 
叶 斯 模型 参数 估计 ， 并 将 各 个 参数 值 放 和 人 Mysql 
数据 库 ， 以 便 模 型 进行 学 科 标 引 时 使 用 。 具 体 
步骤 如 下 : 

第 一 步 定义 mapper<keyvalue> 函数 ， 
key 为 分 片 偏 移 量 ，value 为 < 文本 id>|< 关键 词 
集 >|< 对 应 的 类 别 标签 >。 然 后 针对 每 个 关键 词 
进行 输出 ， 输 出 key 为 < 关键 词 >< 类 别 > 形 
式 的 字符 串 ，value 为 文本 id。 

第 二 步 : 定义 reducer<key,value> 函数 ， 初 
始 化 时 加 载 各 类 别 文章 在 语料库 中 的 数量 和 语 
料 库 中 不 重复 的 关键 词 数 M。 输 入 的 key 为 < 
关键 词 >< 类 别 > 形式 的 字符 串 ，value 为 文本 
id 的 组 合 。 该 函数 主要 是 对 < 关键 词 >|< 类 别 > 
对 应 下 的 文本 id 集合 进行 去 重 并 计算 总 数 n， 
并 获取 该 类 别 的 文本 数 m， 输 出 的 key 为 < 关 
键 词 >|< 类别 > 形式 的 字符 串 ，value 为 n+l)/ 
(m+M) 的 比值 。 

第 三 步 : 将 处 理 结果 导入 到 Mysql P, JF 
建 好 索引 ， 要 对 某 一 文本 进行 分 类 时 ， 直 接 去 


ChinaXiv 合 作 期 刊 


数据 库 中 取 相应 的 值 进行 计算 即 可 。 
OLR SAT 


3.1 分 类 评价 指标 

文本 分 类 器 常 采用 的 评价 指标 是 查 准 率 忆 、 
查 全 率 R 以 及 基于 两 者 的 综合 指标 Fl ， 查 准 率 
P 是 分 类 器 正确 判断 为 该 类 的 样本 数 与 判断 属于 
该 类 的 样本 总 数 的 比率 ， 查 全 率 R 是 分 类 器 正 
确 判 断 为 该 类 的 样本 数 与 属于 该 类 的 样本 总 数 
的 比率 中。 计算 公式 如 下 : 


pa-8 公式 (10) 
a+b 

Rac. 公式 (11) 
aré 


a 为 属于 某 类 别 且 被 判定 为 该 类 别 的 文本 数 
E, b 为 不 属于 某 类 别 但 被 判定 为 该 类 别 的 文本 
Bot, c 为 属于 某 类 别 但 未 被 判定 为 该 类 别 的 文 
本 数量 。 根 据 已 和 尺 计 算出 PL, BD 
PxRx2 
PER 


Fl 公式 (12) 
3.2 实验 结果 与 分 析 

实验 训练 及 测试 使 用 的 语 料 均 抓 取 自 中 
知 网 近 三 年 的 论文 数据 ， 语 料 涵盖 了 所 有 的 学 
科 类 别 。 为 了 验证 本 文 分 类 模型 的 有 效 性 ， 本 
文 进行 了 2 个 实验 : 

(1) 传统 TF-IDF 算法 与 改进 TF-IDF 算法 

计算 idf 值 的 对 比 实验 。 随 机 选取 200 个 特征 词 
的 idf 值 对 比 情 况 ， 部 分 结果 见 表 2。 

通过 大 量 的 实验 发 现 ， 经 过 改进 TF-IDF 算 
法 计算 得 到 的 idf 值 都 有 一 定 的 变化 ,“ 临 床 ”“ 患 
者 ”等 的 idf 值 变化 比较 大 ， 具 有 较 强 的 类 别 区 
分 能 力 ， 由 此 说 明 改 进 的 TF-IDF 算法 能 提高 某 
些 学 科 专 有 名 词 的 权重 。 

(2) LDA+SVM 与 改进 TF-IDF+ 贝 叶 斯 两 

种 分 类 策略 的 对 比 实验 。 为 消除 样本 不 平衡 对 分 
类 结果 的 影响 , 在 实验 之 前 随机 选取 20 个 类 别 ， 
每 个 类 别 随 机 抽取 2 000 条 数据 作为 训练 集 ，1 
000 条 数据 作为 测试 集 ， 训 练 集 与 测试 集 的 数量 
比 为 2:1, 日 没有 重复 数据 。 实验 部 分 结果 见 表 3。 
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从 实验 结果 可 以 看 出 ， 相 比 LDA+SVM 分 类 模型 ， 相 较 于 在 单机 上 实现 ， 计 算 效 率 得 到 
类 算法 ,采用 改进 TF-IDF+ 贝 叶 斯 算法 得 到 的 了 大 大 的 提高 。 因 此 ， 可 以 得 出 本 文 构建 的 自 
查 准 率 、 查 全 率 以 及 F1 值 都 有 明显 的 提高 。 此 外， 动 分 类 模型 在 处 理 海 量 文本 分 类 时 具有 一 定 的 
本 文 基于 Hadoop 分 布 式 处 理 平台 构建 的 自动 分 ”优势 。 


表 2 idf 值 对 比 情况 


特征 词 TF-IDF 算法 改进 TF-IDF 算法 特征 词 TF-IDF 算法 改进 TF-IDF 算法 
facthh 5.804 5.804 观察 1.207 1.906 
新 牌 5.615 5.615 利用 1.150 1.817 
前 庭 大 腺 4.976 5.277 相关 1.116 1.327 
复兴 路 4.858 5.050 作用 1.097 1.385 
镇 肝 炸 风 汤 4.854 5.133 临床 1.092 2.372 
WES RK 4.849 5.060 中 国 1.069 1.294 
腊肠 4.620 4.958 进行 了 1.043 1.224 
剖面 图 4.364 4.630 患者 0.993 2.178 
补 中 益 气 4.219 4.616 影响 0.879 1.191 
诺尔 4.208 4.519 结论 0.851 1.136 
血液 制品 4.206 4.600 目的 0.809 1.054 
HERS 4.086 4.480 本 文 0.787 0.984 
觉 3.978 4.304 发 展 0.773 0.918 
重点 企业 3.834 4.292 人 研究 0.758 0.909 
分 析 0.569 0.879 


表 3 实验 结果 


学 科 类 别 LDA+SVM 改进 TF-IDF+ 贝 叶 斯 
P R F1 P R F1 
天 文学 0.798 0.756 0.776 0.855 0.847 0.851 
控制 科学 与 工程 0.752 0.748 0.750 0.828 0.857 0.842 
经 济 学 0.749 0.729 0.739 0.821 0.846 0.833 
计算 机 科学 与 技术 0.798 0.762 0.780 0.839 0.858 0.848 
数学 0.720 0.736 0.728 0.834 0.845 0.839 
军事 学 0.756 0.764 0.760 0.825 0.846 0.835 
水 产 0.781 0.758 0.769 0.836 0.845 0.840 
食品 科学 与 工程 0.769 0.786 0.777 0.849 0.861 0.855 
个 结束 语 的 困境 。 如 何 帮助 用 户 找到 既 优 质 又 相关 的 学 


术 资 源 是 图 书馆 或 待 解决 的 一 项 实际 问题 。 本 
图 书馆 每 年 都 有 大 量 的 学 术 资 源 产 生 , 在 文 对 基于 机 器 学 习 的 文本 自动 分 类 技术 进行 研 
面 对 这 些 资 源 时 ， 用 户 总 是 陷入 获取 精准 资源 究 ， 旨 在 通过 对 海量 学 术 资 源 进行 高 效 而 准确 
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的 自动 分 类 ， 辅 助 构建 图 书馆 个 性 化 知识 服务 
系统 。 

本 文 在 Hadoop 分 布 式 处 理 平台 上， 对 图 书 
馆 海 量 的 学 术 资 源 进 行 并 行 化 处 理 ， 大 大 的 提 
高 了 计算 的 效率 。 提 出 一 种 改进 的 TF-IDF 算法 
进行 文本 特征 词 集 提 取 ， 既 能 过 滤 掉 大 量 的 品 
音 词汇 ， 降 低 计 算 的 复杂 度 ， 也 便于 后 面 对 海 
量 的 学 术 资 源 进 行 贝 叶 斯 分 类 处 理 ， 提 升 分 类 
的 准确 度 。 存 在 的 不 足 之 处 是 分 类 模型 采用 的 
是 批量 处 理 模式 , 即 批量 的 训练 和 批量 的 分 类 ， 
尚未 做 到 增 量 训练 和 实时 分 类 。 接 下 来 的 工作 
可 考虑 基于 Spark 搭建 流 处 理 平台 ， 以 及 研究 如 
何 实现 模型 的 增 量 学 习 。 
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Research on Automatic Classification Model of Massive Academic Resources in Library 


Yang Ya Yi Yuanhong 
Library and Information Center, Ningbo University, Ningbo 315211 

Abstract: [Purpose/significance] In order to solve the problem that users often have difficulty in obtaining 
information in massive digital resources of library, this paper construct a personalized knowledge service 
system, which is the inevitable choice of library to help users to get rid of the information overload 
predicament and improve the quality of knowledge service. [Method/process] Firstly, this paper built a 
mapping model of Chinese Library Classification(CLC) and subject classification. Then, based on Hadoop 
distributed processing platform, it proposed to build automatic classification model of massive academic 
resources in libraries by improving TF-IDF+ Bayesian algorithm, the model can help to construct the 
personalized knowledge service systems in library. [Result/conclusion] In the experimental part, we 
collected more than 6 million documents from CNKI as the original training corpus (corpus covers 75 
disciplines) to test the effectiveness of the classification model, the experimental result shows that the 
classification efficiency and effectiveness of the model are achieved. 


Keywords: automatic classification Hadoop TF-IDF Bayes 


